Tensorwave vừa triển khai 8.192 máy gia tốc MI325X bản năng, tạo thành cụm đào tạo AMD lớn nhất trong NA
Công ty hạ tầng AI TensorWave vừa công bố việc triển khai cụm máy chủ khổng lồ với 8,192 GPU, sử dụng bộ tăng tốc Instinct MI325X mới nhất của AMD, được cho là lắp đặt AI dựa trên AMD lớn nhất tại Bắc Mỹ tính đến nay. Hệ thống này cũng sử dụng công nghệ làm mát bằng nước trực tiếp, trở thành triển khai công khai đầu tiên đạt quy mô này. Công ty đã chia sẻ hình ảnh về các giá rack mật độ cao với các vòng làm mát màu cam sáng, xác nhận hệ thống đã hoạt động hoàn toàn.
Cụm GPU MI325X làm mát bằng chất lỏng với 8.192 đơn vị, là cụm đào tạo GPU lớn nhất của AMD tại Bắc Mỹ, được xây dựng bởi TensorWave. Sẵn sàng cho tương lai 🌊. MI325X, ra mắt vào cuối năm ngoái, là nỗ lực mạnh mẽ nhất của AMD để cạnh tranh với NVIDIA trong lĩnh vực tăng tốc AI - trước khi bị MI350X và MI355X thay thế tháng trước. Mỗi đơn vị MI325X có 256GB bộ nhớ HBM3e, cho phép băng thông 6TB.
Với thiết kế chiplet và 19,456 bộ xử lý luồng hoạt động ở tốc độ lên tới 2.10GHz, GPU này đạt 6 PFLOPS FP8. Nó cạnh tranh tốt với Nvidias H200 nhưng giá rẻ hơn nhiều. Tuy nhiên, bạn chỉ có thể sử dụng tối đa 8 GPU, trong khi Nvidias cho phép 72, điều này là một trong những lý do chính khiến sản phẩm này không phát triển mạnh và cũng là lý do khiến cách tiếp cận của TensorWave trở nên thú vị.
Thay vì cạnh tranh về quy mô mỗi node, TensorWave tập trung vào khả năng tản nhiệt và mật độ mỗi tủ rack. Cụm máy được xây dựng xung quanh một hệ thống làm mát trực tiếp bằng nước độc quyền, sử dụng ống màu cam hoặc vàng để tuần hoàn chất làm mát qua các tấm lạnh gắn trực tiếp lên mỗi MI325X. Việc vận hành ngay cả một phần nhỏ của phần cứng này tiêu tốn tới 1.000 watt mỗi GPU, đòi hỏi kỹ thuật cao.
Rất may, không có đầu nối nguồn 16 chân nào xuất hiện. Tổng cộng, 8.192 GPU sẽ tạo ra hơn 2 petabyte băng thông bộ nhớ và ước tính 21 exaFLOPS thông lượng FP8. Tuy nhiên, hiệu suất duy trì phụ thuộc nhiều vào việc phân chia mô hình AI giữa các GPU và thiết kế kết nối. Mô hình kinh doanh của TensorWave là cho thuê dung lượng đám mây, do đó, thách thức thực sự trong việc mở rộng mô hình thuộc về các khách hàng.
📢 Liên hệ quảng cáo: 0919 852 204
Quảng cáo của bạn sẽ xuất hiện trên mọi trang!
Hình ảnh: AMD. Việc lắp đặt này diễn ra sau vòng gọi vốn Series A trị giá 100 triệu USD của TensorWave vào tháng Năm, do AMD Ventures và Magnetar dẫn dắt. Khác với hầu hết các nhà cung cấp đám mây chủ yếu sử dụng phần cứng NVIDIA, TensorWave quyết định sử dụng hoàn toàn AMD, không chỉ vì tính linh hoạt về giá cả mà còn vì họ tin rằng ROCm đã phát triển đủ để phục vụ cho việc huấn luyện mô hình quy mô lớn. Mặc dù NVIDIA vẫn chiếm ưu thế với các bộ tăng tốc B100 và H200 có mặt khắp nơi, nhưng sự phát triển này cho thấy dấu hiệu tích cực cho vị thế của AMD trong lĩnh vực AI.
Triển khai của TensorWave không phải là một lần duy nhất. Đội ngũ cho biết đây là giai đoạn đầu tiên trong một kế hoạch lớn hơn, với dự định tích hợp chip MI350X của AMD vào cuối năm nay. Chip này, dựa trên CDNA 4, hỗ trợ độ chính xác FP4 và FP6, tăng băng thông và các thiết kế tiêu thụ điện năng cao có thể đẩy TDP lên tới 1.400W mỗi chip - điều mà không thể chỉ dùng làm mát bằng không khí. Do đó, TensorWave dường như đã đi đúng hướng.
Bộ công cụ ROCm vẫn cần cải thiện, nhưng với 8.192 GPU MI325X đang hoạt động dưới hệ thống làm mát bằng chất lỏng, AMD đã có quy mô để chứng minh vị thế của mình. Hãy theo dõi Toms Hardware trên Google News để nhận tin tức, phân tích và đánh giá mới nhất. Nhớ nhấn nút Theo dõi.
Nguồn: www.tomshardware.com/pc-components/gpus/tensorwave-just-deployed-the-largest-amd-gpu-training-cluster-in-north-america-features-8-192-mi325x-ai-accelerators-tamed-by-direct-liquid-cooling